Step 1: Define the problem

Step 2: Data cleaning / preprocessing & Feature Engineering

Loại bỏ các biến thừa không cung cấp thông tin hữu ích nào cho việc phân tích

Data Formating

Loại bỏ các giá trị bị khuyết

Loại bỏ các giá trị trùng lặp

Đặt tên lại cho các cột

Tạo một biến phân loại cho thời gian

Phát hiện và loại bỏ outliers

=> Có thể không cần loại bỏ Outliers vì số lượng không đáng kể

Exploratory Data Analysis (EDA)

=> Tội phạm thuộc loại Larceny / Theft, cao hơn đáng kể so với bất kỳ loại tội phạm nào khác

=> Quận Central là nơi ghi nhận nhiều tội phạm nhất và quận Park là nơi ít tội phạm nhất ở San Francisco

=> Mặc dù có ít tội phạm hơn được ghi nhận ở quận Tenderlion nhưng tỷ lệ bắt giữ ở đây rất cao 40,27%

=> Ma túy, vi phạm giao thông và lệnh bắt giữ là 3 lý do hàng đầu cho các vụ bắt giữ

=> Hầu hết các sự cố đều đang được tiến hành xử lý

=> Thứ 6 là ngày mà tội phạm được ghi nhận nhiều nhất, tiếp theo là Thứ 7. Chủ nhật là ngày ít tội phạm nhất

=> Hãy cẩn thận vào buổi tối. Gần 1/4 số vụ tội phạm xảy ra vào buổi tối

=> Buổi tối thường là lúc có nhiều vụ phạm tội, tối Thứ 6 đặc biệt tồi tệ và tối Chủ nhật tương đối tốt hơn

=> Tháng 1 là tháng có nhiều tội phạm nhất

=> Ngày 1/1 dường như là ngày có số tội phạm được ghi nhận cao nhất và ngày 25/12 là ngày có số tội phạm được ghi nhận ít nhất. Ngoài ra có thể thấy ngày 12 trong năm là ngày khá an toàn so với phần lớn các ngày còn lại

Trực quan hóa không gian địa lý

Step 3 : Model selection & Trainning

Step 4: Evaluate & test the model results & performance

Step 5: Deploy the model